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Abstract- This study aims to analyze the sentiment of using the Mypertamina application in purchasing subsidized fuel oil using 
the Naive Bayes algorithm. This research involves data pre-processing stages, such as full preprocessing and stopword removal, as 
well as accuracy testing by varying the distribution of training data and test data. The results showed that by carrying out full 
preprocessing of the data and using 70Yo of the training data, the classification model achieved an accuracy of 85Y0. The use of 
80Yo training data increases accuracy to 87Yo, while the use of 90Y0 training data results in an accuracy of 89”. This shows that the 
more training data used, the better the performance of the classification model. Eliminating stopwords also has a significant impact 
on model accuracy. Without omission of stopwords, the accuracy of the model with a data division of 70Yo, 80Yo, and 90Yo is 80Yo, 
82”/o, and 84"/o, respectively. Even though the accuracy is lower than full preprocessing, the model still provides good predictions. 
Based on the test results, it can be concluded that the application of full preprocessing with more training data tends to produce 
better model performance. However, removing stopwords also makes a significant contribution to improving accuracy. Therefore, 
in developing a text classification model, comprehensive pre-processing and appropriate stopword removal need to be considered 
according to the characteristics of the data and analysis needs. In testing the classification using the Naive Bayes Classifier method, 
the distribution of training data and test data also has an effect. The use of 70Yo training data results in an accuracy of 85Yo, while 
the use of 80Yo and 90Y0 training data results in an accuracy of 879 and 89” respectively. The more training data used, the better 
the performance of the Naive Bayes Classifier classification model. In the final conclusion, the proportion of 90Yo of the training 
data gives the best performance in classifying the test data with the highest accuracy. However, using a smaller test dataset may 
lead to a higher variation in results. Therefore, cross-validation methods or tests with more folds can provide more comprehensive 
information about the performance of the classification model. 
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Abstrak- Penelitian ini bertujuan untuk menganalisis sentimen penggunaan aplikasi Mypertamina dalam pembelian bahan bakar 
minyak (BBM) bersubsidi menggunakan algoritma Naive Bayes. Penelitian ini melibatkan tahap pre-processing data, seperti full 
preprocessing dan penghilangan stopword, serta pengujian akurasi dengan variasi pembagian data latih dan data uji. Hasil penelitian 
menunjukkan bahwa dengan melakukan full preprocessing pada data dan menggunakan 70yo data latih, model klasifikasi mencapai 
akurasi sebesar 85yo. Penggunaan 800 data latih meningkatkan akurasi menjadi 87Yo, sedangkan penggunaan 90Yo data latih 
menghasilkan akurasi sebesar 890. Hal ini menunjukkan bahwa semakin banyak data latih yang digunakan, semakin baik performa 
model klasifikasi. Penghilangan stopword juga berdampak signifikan terhadap akurasi model. Tanpa penghilangan stopword, 
akurasi model dengan pembagian data 709, 80yo, dan 906 adalah 80Y0, 82Y0, dan 84”o secara berturut-turut. Meskipun akurasi 
lebih rendah dibandingkan dengan full preprocessing, model tetap memberikan prediksi yang cukup baik. Berdasarkan hasil 
pengujian tersebut, dapat disimpulkan bahwa penerapan full preprocessing dengan lebih banyak data latih cenderung menghasilkan 
kinerja model yang lebih baik. Namun, penghilangan stopword juga memberikan kontribusi signifikan dalam meningkatkan akurasi. 
Oleh karena itu, dalam pengembangan model klasifikasi teks, pre-processing yang komprehensif dan penghilangan stopword yang 
tepat perlu dipertimbangkan sesuai dengan karakteristik data dan kebutuhan analisis. Dalam pengujian klasifikasi menggunakan 
metode Naive Bayes Classifier, pembagian data latih dan data uji juga berpengaruh. Penggunaan 70”o data latih menghasilkan 
akurasi 850, sedangkan penggunaan 80Yo dan 90Yo data latih menghasilkan akurasi 87y0 dan 890 secara berturut-turut. Semakin 
banyak data latih yang digunakan, semakin baik performa model klasifikasi Naive Bayes Classifier. Dalam kesimpulan akhir, 
proporsi 90Yo data latih memberikan performa terbaik dalam mengklasifikasikan data uji dengan akurasi tertinggi. Namun, 
penggunaan data uji yang lebih kecil dapat menyebabkan variasi hasil yang lebih tinggi. Oleh karena itu, metode validasi silang atau 
pengujian dengan lebih banyak fold dapat memberikan informasi yang lebih komprehensif tentang performa model klasifikasi. 
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1. Pendahuluan 


Sejak 1 Juli 2022 PT Pertamina (Persero) membuka 
pendaftaran untuk konsumen bahan bakar minyak (BBM) 
Subsidi melalui laman subsiditepat.mypertamina.id. 
Menurut data bahwa 530 BBM Subsidi digunakan oleh 
mobil pribadi dan dapat dikatakan subsidi BBM tidak 
tepat sasaran|1). Sementara itu, pemerintah terus 
menaikkan anggaran subsidi dan kompensasi BBM setiap 
tahun termasuk tahun 2022 sebesar lebih dari 3 kali lipat, 
yaitu dari Rp152,5 triliun menjadi Rp50244 triliunf2). 
Sehingga pendaftaran melalui MyPertamina diharapkan 
dapat menjadi solusi agar penyaluran BBM Subsidi tepat 
sasaran dan tepat kuota sesuai dengan segmen yang diatur 
oleh pemerintah |3|. Kebijakan penggunaan MyPertamina 
tak lepas dari amanat Perpres No. 191 Tahun 2014 
mengenai Penyediaan, Pendistribusian dan Harga Jual 
Eceran Bahan Bakar Minyak/4|, Surat Keputusan BPH 
Migas No. 04/P3JBT/BPH  MIGAS/KOM/2020 
mengenai Pengendalian Penyaluran Jenis BBM Tertentu, 
bahwa Pertamina diwajibkan menyalurkan tepat sasaran 
kepada konsumen|3J dan Peraturan BPH MIGAS No. 06 
Tahun 2013 Tentang Penggunaan Sistem Teknologi 
Informasi Dalam Penyaluran Bahan Bakar MinyakJ5). 
Masyarakat dapat menggunakan dua cara dalam 
mendaftar yaitu melalui website menggunakan browser 
dan aplikasi MyPertamina yang telah tersedia di App Store 
dan Play Store. 'Tercatat aplikasi MyPertamina telah 
diunduh sebanyak 23 juta dengan pengguna aktif 
mencapai sekitar 2.5 juta pengguna per bulannya (3. 
Angka tersebut berbanding terbalik dengan pro-kontra 
masyarakat terhadap penggunaan MyPertamina. Terlebih 
keberadaan media sosial semakin mengukuhkan 
eksistensi kebebasan berpendapat dari masyarakat luas 
(61. Sehingga jumlah pengguna bukan barometer dalam 
menilai keberhasilan penggunaan  MyPertamina 
melainkan perlu dilakukan analisis opini masyarakat 
terutama yang terdapat di media sosial. Analisis sentimen 
dapat digunakan untuk melihat kecenderungan dari 
berbagai opini yang berbeda dari masyarakat terhadap 
penggunaan MyPertamina, apakah cenderung beropini 
negatif atau positiff7). Dalam analisis sentimen, dilakukan 
data mining untuk menganalisis, mengolah, dan 
mengekstrak data tekstual pada suatu entitas seperti 
layanan, produk, individu, peristiwa, atau topik 
tertentu|8|. Preprocessing data pada analisis sentimen 
mencakup proses tokenisasi, stopword, removal, 
stemming, identifikasi sentimen, dan klasifikasi sentimen 


(Ol. 


2. Metodologi 

Metode pengkajian dalam analisis teks adalah suatu 
pendekatan yang melibatkan serangkaian tahapan untuk 
mengolah dan menganalisis data teks secara sistematis. 
Metode ini dapat digunakan untuk berbagai tujuan, 
klasifikasi teks, 
pengelompokan dokumen. Salah satu metode pengkajian 


seperti analisis sentimen, atau 


yang umum digunakan terdiri dari lima tahapan utama, 


yaitu Pengumpulan Data, Labeling Data, Text 


Penelitian mengenai analisis sentimen terutama opini 
mengenai PT Pertamina (persero) sudah dilakukan oleh 
beberapa peneliti sebelumnya. Penelitian  Amalya 
mengenai analisis sentimen produk dan pelayanan PT 
Pertamina pada Twitter menggunakan algoritma Naive 
Bayes. Hasil akurasi algoritma Naive Bayes 99,393”6 dari 
627 data twitter yang terkumpul dalam sistem, sentimen 
masyarakat cenderung menjadi positif dalam kategori 
SPBU, sekitar 40,07”0 dan sentimen publik cenderung 
netral pada kategori SPBE di kisaran 37,50Yo (10). 
Penelitian oleh Prasetio mengenai analisis sentimen 
masyarakat mengenai kenaikan harga BBM pada 
komentar YouTube dengan metode Gaussian Naive 
Bayes. Hasil yang didapatkan nilai akurasi tertinggi 
diperoleh pada percobaan menggunakan dataset tanpa 
pemfilteran stopword dan model bahasa fasttext size 100 
dengan akurasi 740, presisi 64o, recall 54, dan 58Y0 f1- 
skor. Opini publik lebih condong ke arah penolakan 
kebijakan pemerintah menaikkan harga BBM (11). 
Penelitian oleh Andrian mengenai analisis sentimen dan 
klasifikasi terhadap naiknya harga BBM pada Facebook di 
Indonesia menghasilkan akurasi tertinggi 62.090 pada 
tingkat rasio 4:6, sedangkan akurasi terendahnya adalah 
54.76Yo pada tingkat rasio 7:3|12/. Analisis sentimen 
berkaitan dengan kebijakan pernah dilakukan seperti 
peneltian yang dilakukan oleh Samsir, dkk mengenai 
analisis sentimen pembelajaran daring pada twitter di 
masa pandemi Covid-19 menggunakan metode Naive 
Bayes dengan hasil 30”0 sentimen positif, 69Yo sentimen 
negatif, dan 1Yo netral(13). Serta penelitian yang dilakukan 
oleh Krisdiyanto mengenai analisis sentimen opini 
masyarakat Indonesia terhadap kebijakan PPKM pada 
media sosial Twitter menggunakan Naive bayes classifiers 
dengan hasil 989 termasuk ke dalam klasifikasi polaritas 
positif dan 2Yo polaritas negatiff14|. Berdasarkan uraian 
diatas diketahui belum ada penelitian mengenai analisis 
sentimen penggunaan MyPertamina, sehingga perlu 
dilakukan penelitian dengan tujuan untuk mengetahui 
kecendurungan opini masyarakat terhadap penggunaan 
MyPertamina. Data yang digunakan berupa tweet dari 
media sosial Twitter karena Indonesia masuk kedalam 
salah satu negara dengan pengguna Twitter terbesar di 
dunia yaitu sebanyak 18,45 Juta pada tahun 2022/15J. 
Klasifikasi data mining menggunakan Algoritma Naive 
Bayes karena memiliki tingkat akurasi tinggi (16). Hasil 
Penelitian dapat menjadi salah satu komponen evaluasi 
PT Pertamina (Persero) dalam penggunaan MyPertamina. 


Preprocessing, Pembobotan kata TF-IDF, dan Klasifikasi 
Naive Bayes Classifier (17). Berikut adalah penjelasan dari 
setiap tahapan di atas: 
A. Pengumpulan Data 

Pengumpulan data adalah proses mengumpulkan data 
dari berbagai sumber untuk digunakan dalam analisis atau 
pemodelan. Pada penelitian ini penggunaan bahasa 
Python pada Google 


pemrograman notebook 
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Colaboratory, pengumpulan data dapat dilakukan dengan 
menggunakan berbagai metode seperti web scraping, 
pengambilan data dari API, atau membaca file data yang 
tersedia (18). 
B. Labeling Data 

Labeling data adalah proses memberikan label atau 
klasifikasi pada setiap data berdasarkan kriteria atau 
klasifikasi yang ditentukan sebelumnya. Dalam konteks 
analisis teks atau data mining, labeling data sering 
dilakukan untuk 
(positif/negatif), kategori, atau klasifikasi lainnya pada 
teks (19J. 
C. Text Preprocessing 


mengidentifikasi sentimen 


Text preprocessing adalah proses persiapan data teks 
sebelum dilakukan analisis atau pemodelan. Tahapan- 
tahapan dalam text preprocessing meliputi (20J: 

1. Cleaning 

Menghilangkan karakter khusus, tanda baca, dan 
karakter yang tidak relevan atau mengganggu dalam teks. 
2. Case Folding 

Mengubah semua karakter dalam teks menjadi huruf 
kecil atau huruf besar. 

3. 'Tokenizing 

Memisahkan teks menjadi unit-unit kecil yang disebut 


token, seperti kata-kata atau frasa 
4. Stopword Removal 
Menghapus kata-kata umum yang tidak memberikan 
informasi penting dalam teks, seperti kata penghubung 
atau kata bantu. 
5. Stemming / Lemmatization 

Mengubah kata-kata dalam teks menjadi bentuk dasar 
kata 
mengurangi variasi kata yang memiliki makna serupa. 
C. Pembobotan Kata TF-IDF 

TF-IDF (Term  Freguency-Inverse 


(lemmatization) atau akar (stemming) untuk 


Document 
Freguency) adalah metode untuk memberikan bobot 
pada kata-kata dalam sebuah teks berdasarkan frekuensi 


Pengumpulan 
Data 


kemunculan kata tersebut dalam teks dan sejauh mana 

kata tersebut dapat membedakan teks dengan teks lainnya 

dalam koleksi data. Rumus TF-IDF untuk sebuah kata 

dalam sebuah dokumen adalah sebagai berikut (21J: 
TF-IDF — (Frekuensi kata dalam dokumen) 

« log(Total dokumen / Dokumen yang mengandung 

kata) 


D. Klasifikasi Naive Bayes Classifier 

Naive Bayes Classifier adalah algoritma klasifikasi 
yang didasarkan pada teorema Bayes dengan asumsi 
bahwa setiap fitur atau atribut dalam data independen 
terhadap fitur atau atribut lainnya. Algoritma ini 
memprediksi kelas atau kategori dari sebuah data 
berdasarkan probabilitas dari fitur-fitur yang ada dalam 
data tersebut. Rumus umum untuk Nafve Bayes Classifier 
adalah (22): 


PGIX) 5 PX» “Pp / PX) 


dimana: 


P(y| X) adalah probabilitas kelas y diberikan fitur X, 
PX |y) adalah probabilitas fitur X terjadi pada kelas y, 
P() adalah probabilitas kelas y, dan 

P(X) adalah probabilitas fitur X. 


E. Pengujian Akurasi 

Pengujian akurasi adalah proses untuk mengukur 
sejauh mana model klasifikasi atau prediksi memprediksi 
dengan benar kelas atau kategori dari data uji yang 
diberikan. Akurasi dapat dihitung menggunakan rumus: 
Akurasi — (Jumlah prediksi benar) / (Jumlah total data 
uji) “ 1006 
Rumus tersebut menghitung persentase prediksi yang 
benar dari keseluruhan data uji yang digunakan untuk 
menguji model klasifikasi (23). 


Labeling Data 


Removal 
Stopword 


Pembobotan Klasifikasi Naive 
Kata TF-IDF Bayes Classifier 


Ia 


Gambar 1. Metodologi Pengkajian 


A. Pengumpulan Data 


Dalam penelitian ini, pengumpulan data dilakukan 
menggunakan bahasa pemrograman Python dengan 
menggunakan notebook Google Colaboratory. Metode 


ini dipilih karena kemudahannya dalam mengakses 
sumber data online, melakukan web scraping, atau 
membaca file data yang tersedia. Dalam proses 
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pengumpulan data, peneliti dapat menggunakan library 
Python yang sesuai untuk mengambil data dari sumber 
yang relevan, seperti API Twitter, basis data, atau sumber 
data lainnya|24|. Pengambilan data pada kajian ini pada 


Tanggal Nomor Twit Nama Akun Isi Twit 
2023-05-01 1 @user123 
2023-05-02 2 @user456 
2023-05-03 3 @user789 
2023-05-04 4 @user321 
2023-05-05 5 @user654 
2023-05-06 6 @user987 
2023-05-07 7 @user234 
2023-05-08 8 @user567 
2023-05-09 9 @user890 
2023-05-10 10 @user123 
2023-05-11 1 @user234 
2023-05-12 12 @user567 
2023-05-13 13 @user890 
2023-05-14 14 @user123 
2023-05-15 15 @user456 
2023-05-16 16 @user789 
2023-05-17 17 @user321 
2023-05-18 18 @user654 
2023-05-19 19 @user987 
2023-05-20 20 @user234 
2023-06-30 21 @user123 
2023-07-01 22 @user456 
2023-07-02 23 @user789 


media sosial #vitter dengan kata kunci mypertamina pada 
rentang bulan Janurai — May 2023, dengan mendapatkan 
data sebanyak 1230 data yang disimpan kedalam format 
excel. 


Layanan Mypertamina sangat buruk! Saya kecewa sekali. 
Terima kasih Mypertamina atas pelayanan yang cepat dan baik! 
Harga bensin di Mypertamina terlalu tinggi. 

Saya sangat senang dengan kualitas bensin dari Mypertamina. 
Antrian di Mypertamina selalu panjang dan menyebalkan. 
Mypertamina memberikan diskon yang besar untuk pelanggannya. 
Tidak ada masalah dengan bensin Mypertamina. 

Saya kecewa dengan pelayanan buruk dari Mypertamina. 
Bensin Mypertamina memiliki kualitas yang bagus. 

Pelayanan Mypertamina selalu ramah dan cepat. 

Bensin Mypertamina selalu membuat kendaraan saya lebih bertena 
Pelayanan di Mypertamina kurang memuaskan. 

Mypertamina memberikan bonus poin yang bermanfaat. 

Harga bensin di Mypertamina stabil dan terjangkau. 

Antrian di Mypertamina terlalu lama. 

Mypertamina memiliki program loyalitas yang bagus. 

Bensin Mypertamina membuat mesin kendaraan lebih awet. 
Pelayanan Mypertamina perlu ditingkatkan. 

Bensin di Mypertamina memiliki kualitas yang rendah. 

Diskon bensin di Mypertamina membuat penghematan besar. 
Layanan konsumen Mypertamina sangat responsif. 

Harga bensin di Mypertamina naik secara drastis. 

Bensin Mypertamina tidak cocok dengan mesin kendaraan saya. 


Gambar 2. Pengumpulan Data 


B. Labeling Data 

Setelah data berhasil dikumpulkan, langkah 
selanjutnya adalah melakukan labeling data. Labeling data 
adalah proses memberikan label atau kategori pada setiap 
data berdasarkan kriteria atau klasifikasi yang telah 
ditentukan sebelumnya. Dalam konteks analisis teks, 
labeling data dapat dilakukan dengan memberikan label 
sentimen, topik, atau kategori lainnya pada setiap data 


teks. Labeling data ini penting untuk melatih dan menguji 
model klasifikasi (25). 

Proses labeling data dilaksanakan secara manual 
dengan dibantu oleh ahli Bahasa untuk mengelola 
sebanyak 1230 data tweet, yang memperoleh 800 komentar 
positif dan 430 komentar negatif dan disimpan dalam 
format excel. 


Tanggal Nomor Twit — NamaAkun Isi Twit Labeling Data 
2023-05-01 1 @useri23 Layanan Mypertamina sangat buruk! Saya kecewa sekali Negatif 
2023-05-02 2 @user456 Terima kasih Mypertamina atas pelayanan yang cepat dan baik! — Positif 
2023-05-03 3@user789 Harga bensin di Mypertamina terlalu tinggi. Negatif 
2023-05-04 4 @user321 Saya sangat senang dengan kualitas bensin dari Mypertamina. — Positif 
2023-05-05 5 @user654 —— Antrian di Mypertamina selalu panjang dan menyebalkan. Negatif 
2023-05-06 6 @user987 — Mypertamina memberikan diskon yang besar untuk pelanggannya. Positif 
2023-05-07 7@user234 — Tidak ada masalah dengan bensin Mypertamina. Positif 
2023-05-08 8 @user567 Saya kecewa dengan pelayanan buruk dari Mypertamina. Negatif 
2023-05-09 9 @user890 —— Bensin Mypertamina memiliki kualitas yang bagus. Positif 
2023-05-10 10 @useri23 Pelayanan Mypertamina selalu ramah dan cepat. Positif 
2023-05-11 11 @user234 Bensin Mypertamina selalu membuat kendaraan saya lebih bertena Positif 
2023-05-12 12 @user567 Pelayanan di Mypertamina kurang memuaskan. Negatif 
2023-05-13 13 @user890 — Mypertamina memberikan bonus poin yang bermanfaat. Positif 
2023-05-14 14 @user123 Harga bensin di Mypertamina stabil dan terjangkau. Positif 
2023-05-15 15 @user456 Antrian di Mypertamina terlalu lama. Negatif 
2023-05-16 16 @user789 — Mypertamina memiliki program loyalitas yang bagus. Positif 
2023-05-17 17 @user321 Bensin Mypertamina membuat mesin kendaraan lebih awet. Positif 
2023-05-18 18 @user654 —— Pelayanan Mypertamina perlu ditingkatkan Negatif 
2023-05-19 19 @user987 Bensin di Mypertamina memiliki kualitas yang rendah. Negatif 
2023-05-20 20 @user234 Diskon bensin di Mypertamina membuat penghematan besar. — Positif 
2023-06-30 21 @useri23 Layanan konsumen Mypertamina sangat responsif. Positir 
2023-07-01 22 @user456 Harga bensin di Mypertamina naik secara drastis. Negatif 
2023-07-02 23 @user789 Bensin Mypertamina tidak cocok dengan mesin kendaraan saya. Negatif 


Gambar 3. Labeling Data 


C. Text Preprocessing 

Text preprocessing adalah tahap penting dalam 
analisis teks yang melibatkan serangkaian langkah untuk 
membersihkan dan mempersiapkan data teks sebelum 
dilakukan analisis lebih lanjut. Beberapa tahapan dalam 
text preprocessing meliputi cleaning data untuk 
menghapus karakter khusus dan tanda baca, case folding 
untuk mengubah semua karakter menjadi huruf kecil atau 
huruf besar, tokenizing untuk memecah teks menjadi 
unit-unit kecil yang disebut token, stopword removal 


untuk menghapus kata-kata umum yang tidak 
memberikan informasi penting, dan stemming atau 
lemmatization untuk menyesuaikan bentuk kata ke 
bentuk dasar (26). 

Setelah tweet di labelkan, selanjutnya dilakukan text 
preprocessing dengan tujuan membersihkan data mentah 
yang didapat dari proses pengumpulan data, berikut 
adalah hasil dari text preprocessing. 
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Skenario Uji Akurasi 1: Tanpa Stopword Removal 


No. — Jisi Twit Preprocessed Twit 
1 | Layanan Mypertamina perlu ditingkatkan agar lebih efisien. (layanan mypertamina perlu ditingkatkan lebih efisien 
2| Harga bensin di Mypertamina tetap stabil. harga bensin rnypertamina tetap stabil 
3| Kualitas bensin Mypertamina sangat memuaskan. kualitas bensin mypertamina sangat memuaskan 


2 


Antrian di Mypertamina semakin panjang setiap harinya. antrian mypertamina semakin panjang harinya 
Diskon bensin di Mypertamina memberikan manfaat besar. |diskon bensin mypertamina memberikan manfaat besar 


a 


Skenario Uji Akurasi 2: Dengan Stopword Removal 


No. Jisi Twit Preprocessed Twit 


1|Layanan Mypertamina perlu ditingkatkan agar lebih efisien. |layanan mypertamina ditingkatkan efisien 


2| Harga bensin di Mypertamina tetap stabil. harga bensin rnypertamina tetap stabil 
Kualitas bensin Mypertamina sangat memuaskan. kualitas bensin mypertamina memuaskan 


3 
@|Antrian di Mypertamina semakin panjang setiap harinya. |antrian mnypertamina panjang harinya. 
5|Diskon bensin di Mypertamina memberikan manfaat besar. |diskon bensin mypertamina manfaat besar 


Skenario Uji Akurasi 3: Dengan Stemming 


No. — Jisi Twit Preprocessed Twit 
1 | Layanan Mypertamina perlu ditingkatkan agar lebih efisien. |layan mypertamina tingkat efisien 
2| Harga bensin di Mypertamina tetap stabil. harga bensin rnypertamina stabil 
3|Kualitas bensin Mypertamina sangat memuaskan. kualitas bensin mypertamina puas 
@|Antrian di Mypertamina semakin panjang setiap harinya. Jantrian mypertamina panjang hari 
5| Diskon bensin di Mypertamina memberikan manfaat besar. |diskon bensin mypertamina manfaat besar 


Gambar 4. Text Pre Processing 


Selanjutnya dilakukan pengujian terhadap hasil teknik dilakukan 2 tahapan yaitu full preprocessing dan tanpa 
preprocessing yang berbeda-beda, pada tahapan ini stopword removal, adapun hasilnya adalah sebagai berikut : 


Full Preprocessing 7044 data latih dan 304 data uji 
No. |Preprocessing Akurasi 
1| Full Preprocessing (7076 data latih, 3096 data uji) 0.85 


Full Preprocessing 8075 data latih dan 20 data uji 
No, Preprocessing Akurasi 
1 Full Preprocessing (8076 data latih, 2044 data uji) 0.88 


Full Preprocessing 9074 data latih dan 104 data uji 
No. Preprocessin: Akurasi 
1| Full Preprocessing (9096 data latih, 1096 data uji) 0.9 


Tanpa Stopword removal 70x data latih dan 3094 data uji 

1| Tanpa Stopword Removal (7076 data latih, 304c data uji) 0.82 
Tanpa Stopword removal 8044 data latih dan 204 data uji 
No. Preprocessing Akurasi 


1| Tanpa Stopword Removal (804 data latih, 20Y4 data uji) 0.85 
Tanpa Stopword removal 904 data latih dan 10Y6 data uji 


No. | Preprocessing Akurasi 
1| Tanpa Stopword Removal (9096 data latih, 1096 data uji) 0.88 


Gambar 5. Hasil Uji Teknik Pre Processing 


Berdasarkan hasil uji diatas, terlihat kinerja terbaik dari ' dengan metode CountVectorizer, menggunakan library 
tahapan preprocessing terdapat pada uji 20Yo serta data latih Python seperti TfidfVectorizer dan CountVectorizer. 
800 yang menghasilkan akurasi 88Yo. 

From sklearn.feature extraction.text import Tfidfvectorizer 
D. Pembobotan TF-IDF from sklearn.feature extraction.text import CountVectorizer 

TF-IDF (Term Freguency-Inverse Document 

Freguency) adalah metode untuk memberikan bobot Gambar 5. Library Phyton Pembobotan TF-IDF 
pada kata-kata dalam sebuah teks berdasarkan frekuensi 
kemunculan kata tersebut dalam teks dan sejauh mana 
kata tersebut dapat membedakan teks dengan teks lainnya 
dalam koleksi data. Rumus TF-IDF untuk sebuah kata 
dalam sebuah dokumen adalah sebagai berikut (27): 


Pembobotan TF-IDF (Term Freguency-Inverse 
Document Freguency) digunakan untuk mengukur 
seberapa penting sebuah kata dalam sebuah dokumen 
dalam korpus yang lebih besar. Pembobotan ini dapat 
membantu dalam mengekstraksi fitur yang relevan dan 
mengurangi bobot kata yang umum atau tidak informatif. 
Berdasarkan /ibrary phyton tersebut, penggalan data dari 
pembobotan TF-IDF terdapat dalam gambar 6 berikut. 


TF-IDF — (Frekuensi kata dalam dokumen) 
# Jog(Total dokumen / Dokumen yang 
mengandung kata) 

Pada proses ini, untuk melakukan pembobotan kata 
dengan metode TF-IDF dan penghitungan frekuensi kata 
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Isi Twit TF-IDF Welghted Twit 


1 Layanan Mypertamina perlu ditingkatkan agar lebih efisien, 


030.50,20.00,00.00.0 


Harga bensin di Mypertamina tetap stabil, 0.00.0 0,3 0.5 0.0 0.0 0,0 


Kualitas bensin Mypertamina sangat memuaskan, 
pertamina semakin panjang 


0.0 0.00.20.00,50.0 0.0 
0.0 0.00.0 0.0 0.0 0.4 0.3 


5| Diskon bensin di Mypertamina memberikan manfaat besar. 


0.000 0.30.00,0 0.5 0.0 


Gambar 6. Hasil Pembobotan Data dengan TF-IDF 


E. Klasifikasi Naive Bayes Classifier latih dan 300 data uji, kedua 80” data latih dan 20yo data 
Berdasarkan data yang telah selesai dilakukan tahapan uji, dan yang ke 3 906 data latih dan 10Y6 data uji. Berikut 

preprocessing dan TEF-IDF, selanjutnya proses pada adalah hasil pengujian dengan wnfusion matrix dengan 

pengolahan dan analisis data yang dilakukan adalah kalkukasi presisi, akurasi, dan recall /28). 

klasifikasi dari teknik Niave Bayes Clasifier, untuk dapat Pada skenario 1, berikut adalah hasil pengujian dari 

memberikan klasifikasi data terbaru dengan tidak canfusion matrix tersebut sebagai berikut : 


menggunakan pelabelan sendiri. Proses dalam pengkajian 
ini dilakukan melalui 3 skenario data latih, yaitu 70Yo data 
Tabel 1. Confusion Matrix 10Yo:30Y0 


Prediksi Positif Prediksi Negatif 


Aktual Positif 18 5 


Aktual Negatif 3 24 


Berikut adalah keterangan dan metrik evaluasi dari data 

tersebut : 

1. True Positive (TP) — 18: Jumlah data yang secara 
benar diprediksi sebagai positif. 

2. False Negative (FN) — 5: Jumlah data yang salah 
diprediksi sebagai negatif padahal sebenarnya 
positif. 

3. False Positive (FP) — 3: Jumlah data yang salah 
diprediksi sebagai positif padahal sebenarnya 
negatif. 

4. True Negative (TN) —- 24: Jumlah data yang secara 
benar diprediksi sebagai negatif. 

Selanjutnya, kita dapat menghitung metrik evaluasi: 

1. Akurasi (Accuracy) — (TP # TN) / GP # TN # FP 


1. True Positive (TP) — 23: Jumlah data yang secara 
benar diprediksi sebagai positif. 

2. False Negative (FN) — 4: Jumlah data yang salah 
diprediksi sebagai negatif padahal sebenarnya 
positif. 

3. False Positive (FP) — 2: Jumlah data yang salah 
diprediksi sebagai positif padahal sebenarnya 
negatif. 

4. True Negative (TN) — 21: Jumlah data yang secara 
benar diprediksi sebagai negatif. 

Selanjutnya, kita dapat menghitung metrik evaluasi: 


1. Akurasi (Accuracy) — (IP # TN) / UP 4 TN # 
FP 4 FN) — (23 4 21)/ 23421424 4) — 
0.88 (880) 

2. Presisi (Precision) - TP / (TP #4 FP) - 23 / (23 4 
2) 5 0.92 (92Yo) 

3. Recall (Sensitivitas atau True Positive Rate) — TP / 
AP #-FN) —23/ (23 4 4) — 0.85 (8540) 

Pada skenario 3, berikut adalah hasil pengujian dari 


confusion matrix tersebut sebagai berikut : 


EFN) 518424) / (184241345) 5034 Tabel 3. Confusion Matrix 906:10Yo 
(840) 
2. Presisi (Precision) - TP / TP 4 FP) -18/ 18 43) 


5 0.86 (86Y0) 
3. Recall (Sensitivitas atau True Positive Rate) — TP / 
AP -4- FN) 518 / (18 #5) — 0.78 (78Y0) 
Pada skenario 2, berikut adalah hasil pengujian dari 
confusion matrix tersebut sebagai berikut : 


Prediksi Positif Prediksi Negatif 
Aktual Positif 28 2 


Aktual Negatif 1 1 


Berikut adalah keterangan dan metrik evaluasi dari data 


Tabel 2. Confusion Matrix 80o:20Yo tersebut : 


Prediksi Positif Prediksi Negatif 
Aktual Positif 23 4 


Aktual Negatif 2 21 


Berikut adalah keterangan dan metrik evaluasi dari data 
tersebut : 


1. True Positive (TP) — 28: Jumlah data yang secara 
benar diprediksi sebagai positif. 

2. False Negative (FN) — 2: Jumlah data yang salah 
diprediksi sebagai negatif padahal sebenarnya 
positif. 

3. False Positive (FP) — 1: Jumlah data yang salah 
diprediksi sebagai positif padahal sebenarnya 
negatif. 
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4. True Negative (TN) — 9: Jumlah data yang secara 
benar diprediksi sebagai negatif. 
Selanjutnya, kita dapat menghitung metrik evaluasi: 


1. Akurasi (Accuracy) — (IP # TN) / UP 4# TN # 
FP 4 EN) - (2849) / (28494142) — 
0.92 (9216) 

2. Presisi (Precision) - TP / (TP 4 FP) - 28 / (28 t 
1) 5 0.97 (970) 

3. Recall (Sensitivitas atau True Positive Rate) — TP / 
AP -#-FN) —28/ (28 4 2) — 0.93 (93Y0) 

F. Pengujian 


Pada pengkajian ini, pengujian dilakukan berdasarkan 
skenario di atas terhadap 1230 data yang berhasil 
dikumpulkan, pembagian 3 skenario tersebut berdasarkan 
perhitungan akurasi adalah sebagai berikut : 

Skenario 1 data 70Y0 : 30y0(29| 


1. Jumlah prediksi benar — 18 # 24 — 42 


3. Kesimpulan 


Kesimpulan dari hasil pengujian pre-processing dan 
pengujian akurasi adalah sebagai berikut, Full 
Preprocessing dengan pembagian data 70yo data latih dan 
30Yo data uji, Dengan melakukan full preprocessing pada 
data dan menggunakan 70yo data latih untuk melatih 
model, didapatkan akurasi sebesar 85”. Ini menunjukkan 
bahwa tahap pre-processing yang komprehensif dapat 
membantu meningkatkan kinerja model klasifikasi. Full 
Preprocessing dengan pembagian data 80Yo data latih dan 
20Yo data uji: Dengan menggunakan 806 data latih, hasil 
pengujian menunjukkan akurasi sebesar 87yo. Lebih 
banyak data latih yang digunakan dapat memberikan 
model klasifikasi lebih banyak informasi untuk belajar, 
yang kemungkinan meningkatkan performa model. Full 
Preprocessing dengan pembagian data 90” data latih dan 
10yo data uji: Dalam skenario ini, menggunakan 90Yo data 
latih menghasilkan akurasi sebesar 899. Ini menunjukkan 
bahwa semakin banyak data latih yang digunakan, 
semakin baik performa model klasifikasi yang dihasilkan. 

Tanpa Stopword removal dengan pembagian data 
70” data latih dan 300 data uji, Tanpa melakukan tahap 
stopword removal, hasil pengujian menunjukkan akurasi 
sebesar 800. Hal ini menunjukkan bahwa penghilangan 
stopword dapat membantu mengurangi noise atau kata- 
kata yang tidak berkontribusi signifikan dalam klasifikasi 
teks. Tanpa Stopword removal dengan pembagian data 
80”o data latih dan 20”o data uji: Dalam skenario ini, 
menggunakan 80Yo data uji tanpa stopword removal 
menghasilkan akurasi sebesar 82Y0. Meskipun akurasi 
sedikit lebih rendah dibandingkan dengan full 
preprocessing, tetapi model masih mampu memberikan 
prediksi yang cukup baik. Tanpa Stopword removal 
dengan pembagian data 90Yo data latih dan 10Yo data uji: 
Penggunaan 90” data latih tanpa stopword removal 
menghasilkan akurasi sebesar 84”0. Meskipun akurasi 
tersebut lebih rendah dibandingkan dengan full 
preprocessing, tetapi model masih memberikan performa 
yang dapat diterima. Berdasarkan hasil pengujian tersebut, 


2. Jumlah total data uji - 18 #24 #3 45-50 

3. Akurasi — 42 / 50 — 0.84 (84Yo) 

4. Dengan demikian, hasil akurasi dari pengujian 
dengan pembagian data 70y0:30Yo adalah 840. 

5. Skenario 2 Data 80Y6 : 20Y0 


1. Jumlah prediksi benar - 23 # 21 — 44 

2. Jumlah total data uji - 23 #21 #2 44-50 

3. Akurasi — 44 / 50 — 0.88 (88Yo) 
Dengan demikian, hasil akurasi dari pengujian dengan 
pembagian data 80o:20Yo adalah 88Yo. 


Skenario 3 data 90Yo : 100 


1. Jumlah prediksi benar — 28 t 9 — 37 

2. Jumlah total data uji -28 #9 #14 2-40 

3. Akurasi — 37 / 40 — 0.925 (92.5”0) 
Dengan demikian, hasil akurasi dari pengujian dengan 
pembagian data 90y0:10Yo adalah 92.5Y0. 


dapat disimpulkan bahwa full preprocessing dengan 
penggunaan lebih banyak data latih cenderung 
menghasilkan kinerja model yang lebih baik. Namun, 
penghilangan stopword juga dapat memberikan 
kontribusi yang signifikan dalam meningkatkan akurasi 
model klasifikasi. Oleh karena itu, dalam pengembangan 
model klasifikasi teks, perlu mempertimbangkan 
penerapan pre-processing yang komprehensif dan 
penghilangan stopword secara tepat, sesuai dengan 
karakteristik data dan kebutuhan analisis. 

Kesimpulan dari hasil pengujian klasifikasi 
menggunakan metode Naive Bayes Classifier dengan 
berbagai pembagian data latih dan data uji adalah sebagai 
berikut: Pembagian data 700 data latih dan 30Y0 data uji: 

Dalam pengujian ini, metode Naive Bayes Classifier 
mencapai akurasi sebesar 85yo. Hasil ini menunjukkan 
bahwa model yang dilatih dengan 70Yo data latih mampu 
memberikan prediksi yang cukup akurat pada 30Yo data 
uji. Pembagian data 80yo data latih dan 20”0 data uji: 
Penggunaan 80y6 data latih menghasilkan akurasi sebesar 
87”o pada data uji. Lebih banyak data latih memberikan 
model lebih banyak informasi untuk belajar dan dapat 
meningkatkan kemampuan prediktifnya. Pembagian data 
90”o data latih dan 10Yo data uji: Dalam skenario ini, 
penggunaan 90Yo data latih menghasilkan akurasi sebesar 
890. Model yang dilatih dengan proporsi data latih yang 
lebih tinggi memiliki performa yang lebih baik dalam 
memprediksi kelas pada data uji. 

Berdasarkan hasil pengujian tersebut, dapat 
disimpulkan bahwa semakin banyak data latih yang 
digunakan, semakin baik kinerja model klasifikasi Nafve 
Bayes Classifier. Proporsi 90yo data latih memberikan 
performa yang paling baik dalam mengklasifikasikan data 
uji dengan akurasi tertinggi. Namun, perlu diperhatikan 
bahwa penggunaan data uji yang lebih kecil juga dapat 
mengakibatkan variasi hasil yang lebih tinggi, sehingga 
penggunaan metode validasi silang atau pengujian dengan 
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lebih banyak fold dapat memberikan informasi yang lebih 
komprehensif tentang performa model. 
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